grpo科幻影视_B站影视

可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

刚刚，美团LongCat团队发布了LongCat-Video的基础视频生成模型，它拥有136亿的参数量，能在数分钟内生成720p、30帧每秒的高质量视频，并且在文本转视频、图像转视频和长视频续写等多个任务上都表现出色。

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

推理型大语言模型现在确实火了。这类模型的特点是会先对问题做充分思考，然后再给出答案，而不是直接回复。

本文虽然标题中提到“类 PPO 算法”，但更准确地说，DAPO 和 GSPO 都可以视作在 GRPO 框架下，针对不同任务场景的一系列演进方案。它们并非简单的替代，而是通过改进策略更新与约束机制，逐步修正了 GRPO 在实践中暴露出的若干缺陷。

token ppo grpo dapo gspo 2025-09-12 07:08 10